智能论文笔记

mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for Millimeter Wave Radar

Anjun Chen , Xiangyu Wang , Shaohao Zhu , Yanxu Li , Jiming Chen , Qi Ye

分类：计算机视觉

2022-09-12

毫米波（mmwave）雷达在不利的环境中起作用，例如在烟，雨，雪，照明等不良环境中起作用。先前的工作探索了从嘈杂且稀疏的MMWAVE雷达信号中重建3D骨骼或网格的可能性。但是，目前尚不清楚我们如何准确地从跨场景的MMWave信号重建3D主体，以及与摄像机相比的性能，当单独使用MMWave雷达或将它们与摄像机结合时，这是需要考虑的重要方面。为了回答这些问题，首先设计并构建了多个传感器，以收集大规模数据集。该数据集由在不同场景中的同步和校准的MMWave雷达点云和RGB（D）图像组成，以及在场景中人类的骨架/网格注释。使用此数据集，我们使用来自不同传感器的输入来训练最先进的方法，并在各种情况下对其进行测试。结果表明，1）尽管生成点云的噪音和稀疏性，MMWave雷达可以比RGB摄像机获得更好的重建精度，但比深度摄像头还差； 2）MMWave雷达的重建受不利天气条件的影响，而RGB（D）摄像机受到严重影响。此外，对数据集的分析和结果对改善MMWave雷达重建的重建以及来自不同传感器的信号的组合的洞察力。

translated by 谷歌翻译

Knowledge-enhanced Black-box Attacks for Recommendations

Jingfan Chen , Wenqi Fan , Guanghui Zhu , Xiangyu Zhao , Chunfeng Yuan , Qing Li , Yihua Huang

分类：机器学习 | 人工智能

2022-07-21

最近的研究表明，基于神经网络的深度推荐系统容易受到对抗性攻击的影响，攻击者可以将精心制作的虚假用户配置文件（即，伪造用户与之互动的一组项目）注入目标推荐系统，以实现恶意目的，例如促进或降低一组目标项目。由于安全性和隐私问题，在黑框设置下执行对抗性攻击更为实用，在黑框设置下，攻击者无法轻松访问目标系统的体系结构/参数和培训数据。但是，在Black-Box设置下生成高质量的假用户配置文件，对于目标系统的资源有限，这是一项挑战。为了应对这一挑战，在这项工作中，我们通过利用项目的属性信息（即项目知识图）引入了一种新颖的策略，这些信息可以公开访问并提供丰富的辅助知识来增强伪造用户配置文件的产生。更具体地说，我们提出了一项知识增强的黑框攻击框架（KGATTACK），以通过深度强化学习技术有效地学习攻击政策，其中知识图无缝集成到层次结构策略网络中，以生成伪造的用户配置文件，以表演对抗性黑色 - 黑色 - - 黑色 - 黑色 - 盒子攻击。在各种现实世界数据集上进行的全面实验证明了在黑框设置下提出的攻击框架的有效性。

translated by 谷歌翻译

Reliable Label Correction is a Good Booster When Learning with Extremely Noisy Labels

Kai Wang , Xiangyu Peng , Shuo Yang , Jianfei Yang , Zheng Zhu , Xinchao Wang , Yang You

分类：计算机视觉

2022-04-30

自数据注释（尤其是对于大型数据集）以来，使用嘈杂的标签学习引起了很大的研究兴趣，这可能不可避免地不可避免。最近的方法通过将培训样本分为清洁和嘈杂的集合来求助于半监督的学习问题。然而，这种范式在重标签噪声下容易出现重大变性，因为干净样品的数量太小，无法进行常规方法。在本文中，我们介绍了一个新颖的框架，称为LC-Booster，以在极端噪音下明确处理学习。 LC-Booster的核心思想是将标签校正纳入样品选择中，以便可以通过可靠的标签校正来培训更纯化的样品，从而减轻确认偏差。实验表明，LC-Booster在几个嘈杂标签的基准测试中提高了最先进的结果，包括CIFAR-10，CIFAR-100，CLASTINGING 1M和WEBVISION。值得注意的是，在极端的90 \％噪声比下，LC-Booster在CIFAR-10和CIFAR-100上获得了92.9 \％和48.4 \％的精度，超过了最终方法，较大的边距就超过了最终方法。

translated by 谷歌翻译

Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape Estimation

Zhiwei Liu , Xiangyu Zhu , Lu Yang , Xiang Yan , Ming Tang , Zhen Lei , Guibo Zhu , Xuetao Feng , Yan Wang , Jinqiao Wang

分类：计算机视觉

2021-12-24

3D从单眼RGB图像中的人类姿势和形状恢复是一个具有挑战性的任务。基于现有的基于学习的方法高度依赖于弱监管信号，例如， 2D和3D联合位置，由于缺乏野外配对的3D监督。然而，考虑到这些弱监管标签中存在的2D-3D模糊，网络在用此类标签培训时容易在本地最佳状态下卡。在本文中，我们通过优化多个初始化来减少势措施。具体而言，我们提出了一个名为多初始化优化网络（MION）的三级框架。在第一阶段，我们策略性地选择与输入样本的2D关键点兼容的不同粗略的3D重建候选。每个粗略重建可以被视为初始化导致一个优化分支。在第二阶段，我们设计网格精制变压器（MRT）以分别通过自我关注机制来优化每个粗略重建结果。最后，提出了一种一致性估计网络（CEN）来通过评估RGB图像中的视觉证据与给定的3D重建匹配，以通过评估来查找来自候选的最佳结果。实验表明，我们的多初始化优化网络优于多个公共基准上的现有3D网格的方法。

translated by 谷歌翻译

Makeup216: Logo Recognition with Adversarial Attention Representations

Junjun Hu , Yanhao Zhu , Bo Zhao , Jiexin Zheng , Chenxu Zhao , Xiangyu Zhu , Kangle Wu , Darun Tang

分类：计算机视觉

2021-12-13

标识识别的挑战之一在于形式的多样性，例如符号，文本或两者的组合;此外，徽标在设计中往往非常简洁，而外观类似，表明学习歧视性表示的难度。为了调查徽标的品种和表示，我们介绍了Makeup216，这是来自现实世界的化妆领域的最大和最复杂的Logo数据集。它包括216个标志和157个品牌，包括10,019个图像和37,018个注释的徽标对象。此外，我们发现纯粹徽标周围的边缘背景可以提供重要的上下文信息，并提出了对抗主题的普发提徒注意力表示框架（AAR），分别参加徽标主体和辅助边缘背景，这可以组合以获得更好的表示。我们所提出的框架在Makeup216和另一个大型开放标识数据集中实现了竞争结果，可以为徽标识别提供新的思考。 MakeUp216的数据集及建议框架的代码即将发布。

translated by 谷歌翻译

Towards Practical Deployment-Stage Backdoor Attack on Deep Neural Networks

Xiangyu Qi , Tinghao Xie , Ruizhe Pan , Jifeng Zhu , Yong Yang , Kai Bu

分类：计算机视觉

2021-11-25

AI安全社区的一个主要目标是为现实世界应用安全可靠地生产和部署深入学习模型。为此，近年来，在生产阶段（或培训阶段）和相应的防御中，基于数据中毒基于深度神经网络（DNN）的后门攻击以及相应的防御。具有讽刺意味的是，部署阶段的后门攻击，这些攻击通常可以在不专业用户的设备中发生，因此可以说是在现实世界的情景中威胁要威胁，得以更少的关注社区。我们将这种警惕的不平衡归因于现有部署阶段后门攻击算法的弱实用性以及现实世界攻击示范的不足。为了填补空白，在这项工作中，我们研究了对DNN的部署阶段后门攻击的现实威胁。我们基于普通使用的部署阶段攻击范式 - 对抗对抗权重攻击的研究，主体选择性地修改模型权重，以将后台嵌入到部署的DNN中。为了实现现实的实用性，我们提出了第一款灰度盒和物理可实现的重量攻击算法，即替换注射，即子网替换攻击（SRA），只需要受害者模型的架构信息，并且可以支持现实世界中的物理触发器。进行了广泛的实验模拟和系统级真实的世界攻击示范。我们的结果不仅提出了所提出的攻击算法的有效性和实用性，还揭示了一种新型计算机病毒的实际风险，这些计算机病毒可能会广泛传播和悄悄地将后门注入用户设备中的DNN模型。通过我们的研究，我们要求更多地关注DNN在部署阶段的脆弱性。

translated by 谷歌翻译

A Cooperative-Competitive Multi-Agent Framework for Auto-bidding in Online Advertising

Chao Wen , Miao Xu , Zhilin Zhang , Zhenzhe Zheng , Yuhui Wang , Xiangyu Liu , Yu Rong , Dong Xie , Xiaoyang Tan , Chuan Yu

分类：人工智能

2021-06-11

在线广告中，自动竞标已成为广告商通过简单地表达高级活动目标和约束来优化其首选广告性能指标的重要工具。以前的作品从单个代理的视图中设计了自动竞争工具，而不会在代理之间建模相互影响。在本文中，我们从分布式多功能代理人的角度来看，请考虑这个问题，并提出一个常规$ \强调{m} $ ulti - $ \强调{a} $ gent加强学习框架，以便为$ clown {a} $ uto - $ \ Underline {b} $ IDDIND，即MAAB，了解自动竞标策略。首先，我们调查自动招标代理商之间的竞争与合作关系，并提出了一个温度定期的信用分配，以建立混合合作竞争范式。通过在代理商中仔细开展竞争和合作权衡，我们可以达到均衡状态，不仅担保个人广告商的实用程序，而且保证了系统性能（即社会福利）。其次，为避免竞争低价潜在勾结行为的合作，我们进一步提交了律师代理，为每位专家设定个性化招标酒吧，然后减轻由于合作而导致的收入退化。第三，要在大型广告系统中部署MAAB，我们提出了一种平均现场方法。通过将具有与平均自动竞标代理商相同的广告商进行分组，大规模广告商之间的互动大大简化，使得培训MAAB有效地培训。在离线工业数据集和阿里巴巴广告平台上进行了广泛的实验表明，我们的方法在社会福利和收入方面优于几种基线方法。

translated by 谷歌翻译

Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection

Junjie Yan , Yingfei Liu , Jianjian Sun , Fan Jia , Shuailin Li , Tiancai Wang , Xiangyu Zhang

分类：计算机视觉

2023-01-03

In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.

translated by 谷歌翻译

Understanding Imbalanced Semantic Segmentation Through Neural Collapse

Zhisheng Zhong , Jiequan Cui , Yibo Yang , Xiaoyang Wu , Xiaojuan Qi , Xiangyu Zhang , Jiaya Jia

分类：计算机视觉 | 机器学习

2023-01-03

A recent study has shown a phenomenon called neural collapse in that the within-class means of features and the classifier weight vectors converge to the vertices of a simplex equiangular tight frame at the terminal phase of training for classification. In this paper, we explore the corresponding structures of the last-layer feature centers and classifiers in semantic segmentation. Based on our empirical and theoretical analysis, we point out that semantic segmentation naturally brings contextual correlation and imbalanced distribution among classes, which breaks the equiangular and maximally separated structure of neural collapse for both feature centers and classifiers. However, such a symmetric structure is beneficial to discrimination for the minor classes. To preserve these advantages, we introduce a regularizer on feature centers to encourage the network to learn features closer to the appealing structure in imbalanced semantic segmentation. Experimental results show that our method can bring significant improvements on both 2D and 3D semantic segmentation benchmarks. Moreover, our method ranks 1st and sets a new record (+6.8% mIoU) on the ScanNet200 test leaderboard. Code will be available at https://github.com/dvlab-research/Imbalanced-Learning.

translated by 谷歌翻译

A Survey on Knowledge-Enhanced Pre-trained Language Models

Chaoqi Zhen , Yanlei Shang , Xiangyu Liu , Yifei Li , Yong Chen , Dell Zhang

分类：自然语言处理

2022-12-27

Natural Language Processing (NLP) has been revolutionized by the use of Pre-trained Language Models (PLMs) such as BERT. Despite setting new records in nearly every NLP task, PLMs still face a number of challenges including poor interpretability, weak reasoning capability, and the need for a lot of expensive annotated data when applied to downstream tasks. By integrating external knowledge into PLMs, \textit{\underline{K}nowledge-\underline{E}nhanced \underline{P}re-trained \underline{L}anguage \underline{M}odels} (KEPLMs) have the potential to overcome the above-mentioned limitations. In this paper, we examine KEPLMs systematically through a series of studies. Specifically, we outline the common types and different formats of knowledge to be integrated into KEPLMs, detail the existing methods for building and evaluating KEPLMS, present the applications of KEPLMs in downstream tasks, and discuss the future research directions. Researchers will benefit from this survey by gaining a quick and comprehensive overview of the latest developments in this field.

translated by 谷歌翻译